Thésaurus distributionnels pour la recherche d'information et vice-versa
نویسندگان
چکیده
Distributional thesauri are useful in many tasks of Natural Language Processing. In this paper, we address the problem of building and evaluating such thesauri with the help of Information Retrieval concepts. Two main contributions are proposed. First, in the continuation of the work of (Claveau et al., 2014), we show how IR tools and concepts can be used with success to build thesaurus. Through several experiments and by evaluating directly the results with reference lexicons, we show that some IR models outperform state-of-the-art systems. Secondly, we use IR as an applicative framework to indirectly evaluate the generated thesaurus. Here again, this task-based evaluation validate the IR approach used to build the thesaurus. Moreover, it allows us to compare these results with those from the direct evaluation framework used in the literature. The observed differences question these evaluation habits. MOTS-CLÉS : thésaurus distributionnels, sémantique distributionnelle, construction de lexique, modèles de RI, évaluation directe, évaluation par tâche, extension de requêtes.
منابع مشابه
Utilisation des ressources externes pour la reformulation des requêtes dans un système de recherche d'information
Dans un Système de Recherche d’Information (SRI), les démarches pour la reformulation de la requête sont nombreuses. Elles peuvent être classées selon les ressources utilisées en trois grandes approches : l’utilisation des ressources externes, l’analyse globale et l’analyse locale. Dans ce contexte et dans le cadre des SRI pour les textes Arabes, nous nous intéressons à l’évaluation des perform...
متن کاملExploring the neighbor graph to improve distributional thesauri (Explorer le graphe de voisinage pour améliorer les thésaurus distributionnels) [in French]
In this paper, we address the issue of building and improving a distributional thesaurus. We first show that existing tools from the information retrieval domain can be directly used in order to build a thesaurus with state-of-the-art performance. Secondly, we focus more specifically on improving the obtained thesaurus, seen as a graph of k-nearest neighbors. By exploiting information about the...
متن کاملFreDist : Automatic construction of distributional thesauri for French
Résumé. Dans cet article, nous présentons FreDist, un logiciel libre pour la construction automatique de thésaurus distributionnels à partir de corpus de texte, ainsi qu’une évaluation des différents ressources ainsi produites. Suivant les travaux de (Lin, 1998) et (Curran, 2004), nous utilisons un corpus journalistique de grande taille et implémentons différentes options pour : le type de rela...
متن کاملExploitation des connaissances d'UMLS pour la recherche d'information médicale. Vers un modèle bayésien d'indexation
RÉSUMÉ. La recherche d’information à base de connaissances est largement étudiée, mais avec peu de succès. Dans cet article, nous étudions l’impact de l’exploration d’une base de connaissance, nommée méta thésaurus UMLS pour la recherche d’information médicale. D’abord, l’indexation par concepts d’UMLS extrait dans des textes ne montre qu’une légère amélioration de MAP(Mean Average Precision) p...
متن کاملTraitement d'attributs inter-dépendants pour la recherche d'information par treillis
HAL is a multidisciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L'archive ouverte pluridisciplinaire HAL, est destinée au dépôt età la diffusion de documents scientifiques de niveau r...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید
ثبت ناماگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید
ورودعنوان ژورنال:
- Document Numérique
دوره 18 شماره
صفحات -
تاریخ انتشار 2015